clean__adm__clean_ms<-function(data_adm_raw,year){

  ms<-unique(data_adm_raw[,c("judet","scoala_de_provenienta")])
  
  ms$scoala_de_provenienta_new<-ms$scoala_de_provenienta

  
  ms$scoala_de_provenienta_new<-toupper(ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("NR\\.","NR ",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("Ü","U",ms$scoala_de_provenienta_new)
  
  #2017
  ms$scoala_de_provenienta_new<-gsub("„","\"",ms$scoala_de_provenienta_new)

  
  ms$scoala_de_provenienta_new<-gsub("’’","\"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("’","\"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub(",,","\"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("\\?$","\"",ms$scoala_de_provenienta_new,perl=T)
  ms$scoala_de_provenienta_new<-gsub(" \\?","\"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("A\\?,","\",",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("\\?,","\",",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("\\? ","\" ",ms$scoala_de_provenienta_new)
  
  
  
  #2016
  ms$scoala_de_provenienta_new<-gsub("“","\"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("”","\"",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("Á","A",ms$scoala_de_provenienta_new)
  # ms$scoala_de_provenienta_new<-gsub("ă","A",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("Ă","A",ms$scoala_de_provenienta_new)
  # ms$scoala_de_provenienta_new<-gsub("â","A",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("Â","A",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("É","E",ms$scoala_de_provenienta_new)
  
  
  ms$scoala_de_provenienta_new<-gsub("Î","I",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("Ó","O",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("Ö","O",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("Ő","O",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("Ș","S",ms$scoala_de_provenienta_new)
  # ms$scoala_de_provenienta_new<-gsub("ş","S",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("Ş","S",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("Ț","T",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("ţ","T",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("Ţ","T",ms$scoala_de_provenienta_new)
  
  #2014
  ms$scoala_de_provenienta_new<-gsub("I. C. PETRESCU: STALPENI","I. C. PETRESCU\", STALPENI",ms$scoala_de_provenienta_new)
  
  #2013
  ms$scoala_de_provenienta_new<-gsub("‘ ","\"",ms$scoala_de_provenienta_new)
  #this character is  abadly parsed I-hat in Romanian; conver to I at the beg of word, A in the middle
  ms$scoala_de_provenienta_new<-gsub(' A\\?','I',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('A\\?','A',ms$scoala_de_provenienta_new)
  
  #2012
  ms$scoala_de_provenienta_new<-gsub(' \\?',' \"',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('\\? ','\" ',ms$scoala_de_provenienta_new)
  
  #2009
  ms$scoala_de_provenienta_new<-gsub(' "A" "L" "A" "I" "A" "C" "A" "E" "A" "U" "A" "L" "A" "I" "A" "C" "A" "U" "A" "I" "A" "P" "A" "R" "A" "O" "A" "G" "A" "R" "A" "M" "A" "I" "A" "S" "A" "P" "A" "O" "A" "R" "A" "T" "A" "I" "A" "V" "A" "I" "A" "+" "A" "I" "A" "C" "A" "L" "A" "U" "A" "B" "A" "U" "A" "L" "A" "I" "A" "S" "A" "P" "A" "O" "A" "R" "A" "T" "A" "I" "A" "V" "A" "I" "A" "S" "A" "C" "A" "O" "A" "L" "A" "R" "A" "I" "A" "B" "A" "I" "A" "M" "A" "R" "A" "E" "A" ',
  'LICEUL CU PROGRAM SPORTIV BAIA MARE',ms$scoala_de_provenienta_new)
  
  #2008
  ms$scoala_de_provenienta_new<-gsub(' "A" "S" "A" "C" "A" "O" "A" "L" "A" "I" "A" "C" "A" "U" "A" "I" "A" "C" "A" "L" "A" "S" "A" "E" "A" "L" "A" "E" "A" "I" "A" "I" "A" " " "A" "V" "A" "I" "A" "I" "A" "I" "A" "I" "A" "C" "A" "L" "A" "I" "A" "N" "A" "E" "A" "S" "A" "T" "A" "I" "A" "_" "A" "E" "A" "N" "A" "C" "A" "H" "A" "E" "A" ',
          'SCOALA CU CLASELE I-VIII CALINESTI-ENACHE',ms$scoala_de_provenienta_new)
  
  #2005
  ms$scoala_de_provenienta_new<-gsub('=','-',ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub('\\+.*$','',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-trimws(ms$scoala_de_provenienta_new)
  
  #2004
  ms$scoala_de_provenienta_new<-gsub('_','-',ms$scoala_de_provenienta_new)
  
  #change to uppercase
  ms$scoala_de_provenienta_new<-toupper(ms$scoala_de_provenienta_new)
  
  #2018-2014
  ms$scoala_de_provenienta_new<-gsub("A€Ť","\"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("A€Ś","\"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("A€Ž","\"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("A€Ž","\"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("A€Ž","\"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("IA¿I","IASI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub(" ¿I "," SI ",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("¿IBANE¿TI","TIBANESTI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("¿TEFAN","STEFAN",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("TIMI¿OARA","TIMISOARA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("CONSTRUC¿II","CONSTRUCTII",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("NA¿IONAL","NATIONAL",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("NAAŻIONAL","NATIONAL",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("AŻTEFAN","STEFAN",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("AŽ","A",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("IAAŻI","IASI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("AŻI ","SI ",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("CONSTRUCAŻII","CONSTRUCTII",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("AŻIBANEAŻTI","TIBANESTI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("A‚","A",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('CONSTANTIN TRU¿CA','CONSTANTIN TRUSCA',ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("CLS\\.","CLASELE",ms$scoala_de_provenienta_new,perl=T)
  ms$scoala_de_provenienta_new<-gsub("CLS","CLASELE",ms$scoala_de_provenienta_new,perl=T)
  ms$scoala_de_provenienta_new<-gsub("^SC\\.","SCOALA ",ms$scoala_de_provenienta_new,perl=T)
  ms$scoala_de_provenienta_new<-gsub("^SC ","SCOALA ",ms$scoala_de_provenienta_new,perl=T)
  ms$scoala_de_provenienta_new<-gsub("SC CU","SCOALA CU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("SC\\. CU ","SCOALA CU ",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("SCOALA CU CL\\. ","SCOALA CU CLASELE",ms$scoala_de_provenienta_new)
  #ms$scoala_de_provenienta_new<-gsub("SCOLARINDUSTRIAL","SCOLAR INDUSTRIAL",ms$scoala_de_provenienta_new)
  
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("SC\\.CLS\\. ","SCOALA CU CLASELE ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("SC\\.CLS\\.","SCOALA CU CLASELE",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("GEN\\. ","GENERALA ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("CLS\\. ","CLASELE ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("CLS\\.","CLASELE ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("CL\\. ","CLASELE ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("CL\\.","CLASELE ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("LIC\\. ","LICEUL ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("LIC\\.","LICEUL ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("LICEU ","LICEUL ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("PROG\\. ","PROGRAM ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("PROG\\.","PROGRAM",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("IND\\.","INDUSTRIAL ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("GRUP ","GRUPUL ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("GRUPUL SC\\.","GRUPUL SCOLAR ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("^SC\\. ","SCOALA ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("^SC\\.","SCOALA ",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("1-8","I-VIII",scoala_de_provenienta_new))
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("I - VIII","I-VIII",scoala_de_provenienta_new))

  #ms$scoala_de_provenienta_new<-gsub('(?<=\\s\")(\\s)(.*\")','\\2',ms$scoala_de_provenienta_new,perl=T)
  ms$scoala_de_provenienta_new<-gsub('LICEU ','LICEUL ',ms$scoala_de_provenienta_new,perl=T)
  ms$scoala_de_provenienta_new<-gsub('I-VIII\\. ','I-VIII ',ms$scoala_de_provenienta_new,perl=T)
  ms$scoala_de_provenienta_new<-gsub('CONSTR\\.','CONSTRUCTII ',ms$scoala_de_provenienta_new,perl=T)
  ms<-ms %>% mutate(scoala_de_provenienta_new=gsub("TEOR\\.","TEORETIC",scoala_de_provenienta_new))
  

  
  #ms$scoala_de_provenienta_new<-gsub("SC\\. I-VIII","SCOALA I-VIII",ms$scoala_de_provenienta_new)
  #ms$scoala_de_provenienta_new<-gsub("SC I-VIII","SCOALA I-VIII",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("GR\\. SC","GRUPUL SC",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("GR SC","GRUPUL SC",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("GRUPUL SC\\.","GRUPUL SCOLAR",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("GRUPUL SC ","GRUPUL SCOLAR ",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("^COL\\.","COLEGIUL",ms$scoala_de_provenienta_new,perl=T)
  ms$scoala_de_provenienta_new<-gsub("^COL ","COLEGIUL ",ms$scoala_de_provenienta_new,perl=T)
  
  ms$scoala_de_provenienta_new<-gsub("SA\\?BU","SARBU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("SA\\?MICLAUS","SANMICLAUS",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("GA\\?DE","GARDE",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("BUCERDEA GRA\\?OASA","BUCERDEA GRANOASA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("SA\\?CEL","SANCEL",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("AGA\\?BICEANU","AGARBICEANU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("GA\\?BOVA","GARBOVA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("CAPA\\?NA","CAPALNA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("TA\\?SA","TARSA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("TATA\\?LAUA","TATARLAUA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("HA\\?SESTI","HARSESTI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("CA\\?PULUNG","CAMPULUNG",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("TOPA\\?CEANU","TOPARCEANU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("MIRCEA CEL BATRA\\?","MIRCEA CEL BATRAN",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("HA\\?TIESTI","HARTIESTI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("RA\\?A","RACA",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("BA\\?SESTI","BARSESTI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("BA\\?LA","BARLA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("COSTESTI VA\\?SAN","COSTESTI VALSAN",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("RA\\?CACIOV CALINESTI","RANCACIOV CALINESTI",ms$scoala_de_provenienta_new)
  
  
  ms$scoala_de_provenienta_new<-gsub("PODU DA\\?BOVITEI","PODU DAMBOVITEI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("STA\\?PENI","STALPENI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("VA\\?CELE","VALCELE",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("CIOFRA\\?GENI","CIOFRANGENI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("BA\\?LOGU","BARLOGU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("DA\\?MANESTI","DARMANESTI",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("PODU DA\\?BOVITEI","PODU DAMBOVITEI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("STA\\?PENI","STALPENI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("VA\\?CELE","VALCELE",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("CIOFRA\\?GENI","CIOFRANGENI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("BA\\?LOGU","BARLOGU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("DA\\?MANESTI","DARMANESTI",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("TOPA\\?CEANU","TOPARCEANU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("BA\\?LA","BARLA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("TRANDAFIR COCA\\?LA","TRANDAFIR COCARLA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("NEGIP HAGI FAZA\\?","NEGIP HAGI FAZAL",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("FA\\?FANI","FALFANI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("BA\\?ZESTI","BARZESTI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("CAPATA\\?ENI","CAPATANENI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("RA\\?A","RAPA",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("TEHNOLOGICI\\?","TEHNOLOGIC \"",ms$scoala_de_provenienta_new,perl=T)
  ms$scoala_de_provenienta_new<-gsub("PEDAGOGICI\\?","PEDAGOGIC \"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("GIMNAZIALAI\\?","GIMNAZIALA \",",ms$scoala_de_provenienta_new)
  
  ms$scoala_de_provenienta_new<-gsub("LICEULT","LICEUL T",ms$scoala_de_provenienta_new)

  
  


  
  

  
  

  #2017-2013
  ms$scoala_de_provenienta_new<-gsub("'","\"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("A\\?\\?","\"",ms$scoala_de_provenienta_new)
  

  
 
  
  #2019-2015
  ms$scoala_de_provenienta_new<-gsub("Ő","O",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("Ş","S",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("Ă","A",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("Ţ","T",ms$scoala_de_provenienta_new)
  
  #Spacing et al
  ms$scoala_de_provenienta_new<-gsub("\\.([A-Za-z])", "\\. \\1",  ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("\\s+(?=\\p{Pd})|(?<=\\p{Pd})\\s+", "", ms$scoala_de_provenienta_new, perl=TRUE) # suppress space before -
  ms$scoala_de_provenienta_new<-trimws(ms$scoala_de_provenienta_new, which = c("both")) #trim white space leading and lagging
  ms$scoala_de_provenienta_new<-gsub("\\s+", " ", trimws(ms$scoala_de_provenienta_new)) #suppress multiple spaces
  
  #CHANGE WEIRD QUOTES INTO "
  ms$scoala_de_provenienta_new<-gsub("''-","\" ",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("\"-", "\" ",  ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("''","\"",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("'","\"",ms$scoala_de_provenienta_new)
  
  #Make some modifications to town names; remove old I-hat and replace with A-hat, lus some other changes
  ms$scoala_de_provenienta_new<-gsub("JIU\\.","JIU,",ms$scoala_de_provenienta_new) # CHANGE . to , FOR iasi
  ms$scoala_de_provenienta_new<-gsub("RM\\.","RAMNICU",ms$scoala_de_provenienta_new) 
  ms$scoala_de_provenienta_new<-gsub('TG\\.','TARGU',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('TG','TARGU',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("TIRG","TARG",ms$scoala_de_provenienta_new) 
  ms$scoala_de_provenienta_new<-gsub("SFINT","SFANT",ms$scoala_de_provenienta_new) 
  ms$scoala_de_provenienta_new<-gsub('SINGEORGIU','SANGEORGIU',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('SINMARTIN','SANMARTIN',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('SINTANA','SANTANA',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('PINCOTA','PANCOTA',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('CIMPINA','CAMPINA',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('RISNOV','RASNOV',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('CIMPIA','CAMPIA',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('HIRSOVA','HARSOVA',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('CIMPULUNG','CAMPULUNG',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("PIATRA NEAMT","PIATRA-NEAMT",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("TARGU JIU","TARGU-JIU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("FIERBINTI-TARG","FIERBINTI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("HIRLAU","HARLAU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("TIRNAVENI","TARNAVENI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("RIMNICU","RAMNICU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("CURTEA DE AG\\.","CURTEA DE ARGES",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("CURTEA DE AG","CURTEA DE ARGES",ms$scoala_de_provenienta_new)
  
  
  #make some modifications which will faciliate matching ms's over several years
  ms$scoala_de_provenienta_new<-gsub('GR\\. SC\\.','GRUPUL SCOLAR',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('GRUP SCOLAR','GRUPUL SCOLAR',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('LIC\\.','LICEUL',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('TEHN\\.','TEHNOLOGIC',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('GRUP SC\\.','GRUPUL SCOLAR',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("AL\\. I\\.","ALEXANDRU IOAN",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("A\\. I\\.","ALEXANDRU IOAN",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("GH\\. M\\.","GHEORGHE MUNTEANU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub(" GH\\."," GHEORGHE",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("BARTOK BELA","BELA BARTOK",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("C\\. BREDICEANU","CORIOLAN BREDICEANU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("C\\. DIACONOVICI","CONSTANTIN DIACONOVICI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("C\\. NEGRI","COSTACHE NEGRI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("D\\. CANTEMIR","DIMITRIE CANTEMIR",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("G\\. VRANCEANU","GHEORGHE VRANCEANU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("GR\\.","GRIGORE",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("M\\. EMINESCU","MIHAI EMINESCU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("V\\. ALECSANDRI","VASILE ALECSANDRI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("G\\. APOSTU","GEORGE APOSTU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("A\\. SALIGNY","ANGHEL SALIGNY",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("C\\. D\\. NENITESCU","COSTIN D\\. NENITESCU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("ED\\. NICOLAU","EDMOND NICOLAU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("G-RAL","GENERAL",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("C-TIN","CONSTANTIN",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("D\\. PRAPORGESCU","DAVID PRAPORGESCU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("AL\\.","ALEXANDRU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("G\\. P\\.","GEORGE POP",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("I\\. ZOSSIMA","IORDACHE ZOSSIMA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("J\\. LEBEL","JOHANNES LEBEL",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("J\\. M\\. ELIAS","JACQUES M\\. ELIAS",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("C-TIN","CONSTANTIN",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("M\\. BASARAB","MATEI BASARAB",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("N\\. ONCESCU","NICOLAE ONCESCU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("SF\\.","SFANTUL",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("T\\. VLADIMIRESCU","TUDOR VLADIMIRESCU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("RM ","RAMNICU ",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("RM\\.","RAMNICU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("I\\. L\\.","ION LUCA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("I\\. C\\. DRAGUSANU","ION CODRU DRAGUSANU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("J GREGOR TAJOVSKI","JOZEF GREGOR TAJOVSKI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("S\\. HARET","SPIRU HARET",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("SF ","SFANTU ",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub(" TIMIS$","",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("C\\. BRANCUSI","CONSTANTIN BRANCUSI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("A\\. IANCU","AVRAM IANCU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("J\\. KOZACEK","JOZEF KOZACEK",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("I\\. VULCAN","IOSIF VULCAN",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("M\\. VITEAZU","MIHAI VITEAZUL",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("S\\. VULCAN","SAMUIL VULCAN",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("A\\. SAGUNA","ANDREI SAGUNA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("T\\. VUIA","TRAIAN VUIA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("V\\. VOICULESCU","VASILE VOICULESCU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("L\\. BLAGA","LUCIAN BLAGA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("M\\. KOGALNICEANU","MIHAIL KOGALNICEANU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("N\\. BOLCAS","NICOLAE BOLCAS",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("N\\. JIGA","NICOLAE JIGA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("P\\. COSMA","PARTENIE COSMA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("D\\. LEONIDA","DIMITRIE LEONIDA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("O\\. GHIBU","ONISIFOR GHIBU",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("A\\. ROMAN","ALEXANDRU ROMAN",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("GHEORGHE MURGOCI","GHEORGHE MUNTEANU MURGOCI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("N\\. COMANECI","NADIA COMANECI",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("CU PROGRAM SPORTIV","SPORTIV",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("CU PROGRAM DE ATLETISM","SPORTIV",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('"DIMITRIE TICHINDEAL"','"PREPARANDIA-DIMITRIE TICHINDEAL"',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('N\\. VASILESCU','NICOLAE VASILESCU',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('IND\\.','INDUSTRIAL',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('N PLESOIANU','NICOLAE PLESOIANU',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('C\\. ANGELESCU','CONSTANTIN ANGELESCU',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('DOBRESCU-ARGES','DOBRESCU',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('SZENT ERZSEBET','SFANTA ELISABETA',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('SAT CIORANII DE JOS\\. COMUNA CIORANI','CIORANI',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('CIORANII DE JOS','CIORANI',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('MANECIU-UNGURENI','MANECIU',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('SAT GHEABA\\. COMUNA MANECIU','MANECIU',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('ION I\\. C\\. BRATIANU','ION CONSTANTIN BRATIANU',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('I\\. C\\. BRATIANU','ION CONSTANTIN BRATIANU',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('ION C\\. BRATIANU','ION CONSTANTIN BRATIANU',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('TEHNLOGIC','TEHNOLOGIC',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('SINTANA','SANTANA',ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub('BOLINTIN VALE','BOLINTIN-VALE',ms$scoala_de_provenienta_new)
  
  

  
  
  #remove village name and keep only town name
  ms$scoala_de_provenienta_new<-unlist(lapply(1:length(ms$scoala_de_provenienta_new), function(x)
    gsub('(SAT ).*',gsub('.+?(?=COMUNA)',"\\1",ms$scoala_de_provenienta_new[x],perl=TRUE),ms$scoala_de_provenienta_new[x],perl=T)))
  

  ms$scoala_de_provenienta_new<-gsub("MUN\\.","",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("INCLUZIA","INCLUZIVA",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("COLEGIU ","COLEGIUL ",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("LOCALITATEA ","",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("COMUNA ","",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("ORAS ","",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("ORASUL ","",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("MUNICIPIU ","",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("MUNICIPIUL ","",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub("COM\\. ","",ms$scoala_de_provenienta_new)
  ms$scoala_de_provenienta_new<-gsub(" SATUL ","",ms$scoala_de_provenienta_new)  
  ms$scoala_de_provenienta_new<-gsub('\\.(?!\\s+)',"\\. ",ms$scoala_de_provenienta_new,perl=T)
    
  
  
  if (year==2014){
    ms$scoala_de_provenienta_new<-gsub('GALAT$','GALATI',ms$scoala_de_provenienta_new)
    ms$scoala_de_provenienta_new<-gsub('TARGU-MURES','TARGU MURES',ms$scoala_de_provenienta_new)
  }
  if (year==2019){
    ms[ms$judet=='MEHEDINTI',]$scoala_de_provenienta_new<-gsub('COLEGIUL TEHNOLOGIC$','COLEGIUL TEHNIC DE TRANSPORTURI AUTO',ms[ms$judet=='MEHEDINTI',]$scoala_de_provenienta_new)
  }
  
  #add space before first quotation
  ms$scoala_de_provenienta_new<-sub('(.*?)"','\\1 "', ms$scoala_de_provenienta_new)
  
  #add space after last quotation not followed by a coma, then delete all double spaces
  ms$scoala_de_provenienta_new<-sub('(\\".*?)"(?!\\,)','\\1" ',ms$scoala_de_provenienta_new,perl=T)
  ms$scoala_de_provenienta_new<-gsub("\\s+", " ", ms$scoala_de_provenienta_new)
  
  #remove space after first quote
  ms$scoala_de_provenienta_new<-sub('\\"\\s+(?=.*?\\")','\"', ms$scoala_de_provenienta_new,perl=T)
  
  #remove space before last quote
  ms$scoala_de_provenienta_new<-sub('(\\".*?)\\K\\s+\\"','\"', ms$scoala_de_provenienta_new,perl=T)

  
  data_adm_raw<-base::merge(data_adm_raw,ms,by=c("judet","scoala_de_provenienta"),all.x=T)
  data_adm_raw$scoala_de_provenienta_orig<-data_adm_raw$scoala_de_provenienta
  data_adm_raw$scoala_de_provenienta<-data_adm_raw$scoala_de_provenienta_new
  data_adm_raw<-data_adm_raw %>% select(-scoala_de_provenienta_new) %>% ungroup
  
  return(data_adm_raw)
}